مقایسه الگوریتم‌های برپایه یادگیری ماشین بر دقت تخمین داده‌های گمشده حاصل از آزمایش‌های ریزآرایه

Authors

فرزان قانع گلمحمدی دانش آموخته کارشناسی ارشد بیوتکنولوژی کشاورزی، گروه زیست‌شناسی سیستم‌ها، پژوهشکده بیوتکنولوژی کشاورزی ایران، کرج، ایران

مریم مشیری دانش آموخته کارشناسی ارشد اصلاح نژاد دام، گروه علوم دامی، دانشکده کشاورزی، دانشگاه فردوسی مشهد، ایران

مصطفی قادری زفره ای استادیار گروه علوم دامی، دانشکده کشاورزی، دانشگاه یاسوج، ایران

Abstract:

وجود داده‌های گمشده در داده‌های ریزآرایه، سبب کاهش دقت رسم شبکه‌های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم‌بندی تخصصی ژن‌ها و سایر تحلیل‌ها می‌شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده‌های ریزآرایه، محسوب می‌شود. عملکرد الگوریتم-های تخمین در مجموعه داده‌های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب‌ترین الگوریتم به منظور دستیابی به بیشترین دقت در محاسبات داده‌های گمشده از اهمیت خاصی برخوردار است. در این مطالعه از سه مجموعه داده آزمایش‌های ریزآرایه استفاده شد. پس از مشخص کردن ابعاد ماتریس بیانی و نرمال کردن داده‌ها، درصدهای مختلفی از گمشدگی، بر مجموعه داده‌های مورد مطالعه اعمال شد. سپس نتایج حاصل با استفاده از 11 الگوریتم بر پایه یادگیری ماشین، به منظور بررسی میزان دقت هر یک از الگوریتم‌ها در تعیین میزان درصد گمشدگی، مورد مقایسه قرار گرفت. بر اساس نتایج، دقت الگوریتم‌های مختلف به مجموعه داده به کار رفته، درصد گمشدگی و توزیع گمشدگی داده‌ها وابسته است. همچنین تعداد نمونه‌های آزمایشی موجود در مجموعه داده‌ها نیز می تواند بر دقت الگوریتم‌های تخمین داده‌های گمشده موثر باشد. نتایج بیانگر کاهش دقت تمامی الگوریتم‌ها با افزایش درصد داده‌های گمشده بود، اما الگوریتم‌های Least Square Adaptive و Local least square دقت بیشتری در مقابل افزایش درصد گمشدگی داده‌ها نسبت به سایر الگوریتم‌ها نشان دادند.

Download for Free

Already have an account?login

similar resources

مقایسه الگوریتم های برپایه یادگیری ماشین بر دقت تخمین داده های گمشده حاصل از آزمایش های ریزآرایه

وجود داده های گمشده در داده های ریزآرایه، سبب کاهش دقت رسم شبکه های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم بندی تخصصی ژن ها و سایر تحلیل ها می شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده های ریزآرایه، محسوب می شود. عملکرد الگوریتم-های تخمین در مجموعه داده های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب ترین الگوریتم به منظور دستیابی به بیشترین دقت...

full text

مروری بر روش‌های تخمین هزینه نرم‌افزار مبتنی بر یادگیری ماشین

Software project management software is the most important activity in software development, because it contains the whole software development process, from beginning to end. Software cost estimation is a challenge task in the software project management. It is an old activity in computer industry from 1940s and has been developed many times. Effort, only covers part of the cost of a software ...

full text

ارائه یک روش جدید برای تخمین مقادیر گمشده در مجموعه داده

اغلب مجموعه داده های مربوط به داده کاوی و ماشین یادگیری دارای داده هایی با مقادیر Missing Values یا داده گمشده می باشند. چگونگی برخورد با داده گمشده و نیز ارائه راهکارهایی مبتنی بر تخمین مقدار مربوط به داده گمشده، منجر به بروز یک مسئله بسیار مهم در زمینه داده کاوی و ماشین یادگیری شده است. در بین الگوریتم های داده کاوی، الگوریتم C4.5، به دلیل کارآیی، استفاده در کاربردهای مختلف داده کاوی و نیز ت...

full text

بررسی نتایج حاصل از آزمایشهای cpt در شرایط آزمایشگاهی با تاکید بر تکرارپذیری و دقت نتایج

آزمایش درجای نفوذ مخروط که اختصاراً به آن cpt (cone penetration test) گفته می شود یکی از پرکاربردترین و پرطرفدارترین آزمایشات درجا می باشد. استفاده وسیع از این آزمایش به سبب اقتصادی بودن و سرعت عمل آن در مهندسی ژئوتکنیک در شناسایی لایه های خاک و مشخصات آن، موجب گشته است که محققین بسیاری به روشهای گوناگون تحلیلی، تجربی و عددی به مطالعه این آزمایش در خاک بپردازند تا ارتباط صحیحی بین مشخصات خاک و م...

15 صفحه اول

تخمین نرخ نفوذ حفاری با استفاده از ماشین یادگیری افراطی و شبکه های عصبی پایه شعاعی

full text

تخمین پارامترهای کیفی آب با استفاده از ترکیب روش‏ ‏ماشین یادگیری قدرتمند و تئوری موجک

ﻫریک از ﻣﺼﺎرف ﮔﻮﻧﺎﮔﻮن آب ﻣﺎﻧﻨﺪ ﻛﺸﺎورزی، ﺷﺮب و ﺻﻨﻌﺖ ﻧﻴﺎزﻣﻨﺪ آب ﺑﺎ ‌کیفیتی ﻣﺸﺨﺺ ﻫﺴﺘﻨﺪ ﻛﻪ حدود کیفی آن، ﺑﺎ ﻧﻤﻮﻧﻪ‌ﺑﺮداری‏ﻫﺎی ﻣﻜﺮر، آزﻣﺎﻳﺶ و ﺗﺤﻠﻴﻞ ﻧﺘﺎﻳﺞ ﻣﺸﺨﺺ ﻣﻲ‏شود‏. ﻫﺰینۀ ﻧﻤﻮﻧﻪ‏ﺑﺮداری از آب‏ﻫﺎی ﺳﻄﺤﻲ، اﻧﺪازهﮔﻴﺮی ﭘﺎراﻣﺘﺮﻫﺎی ﻛﻴﻔﻲ در ﻣﺤﻴﻂ آزﻣﺎیشگاه و ﺧﻄﺎﻫﺎی اﻧﺴﺎﻧﻲ، از ﺟﻤﻠﻪ ﻣﺸﻜﻼت ﻣﻮﺟﻮد در ﺗﺨﻤﻴﻦ ﻏﻠﻈﺖ ﭘﺎراﻣﺘﺮﻫﺎی ﻛﻴﻔﻲ‌اند‏. ﺑﻪ ﻫﻤﻴﻦ ﻣﻨﻈﻮر، ﺑﺮای اﻟﮕﻮﺑﻨﺪی ﭘﺎراﻣﺘﺮﻫﺎی ﻛﻴﻔﻲ آب، روش‏ﻫﺎی ﻣﺨﺘﻠﻔﻲ وﺟﻮد دارد ﻛﻪ در اﻳ...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}

Journal title

پژوهش های سلولی و مولکولی

volume 28 issue 4

pages 612- 622

publication date 2016-02-20

unfollow

{@ msg @}

By following a journal you will be notified via email when a new issue of this journal is published.

Keywords

الگوریتم‌های بر پایه یادگیری ماشین تخمین داده‌های گمشده ریزآرایه

Hosted on Doprax cloud platform doprax.com